Multi-modal and multi-hop question answering aims to answer a question based on multiple input sources from different modalities. Previous methods retrieve the evidence separately and feed the retrieved evidence to a language model to generate the corresponding answer. However, these methods fail to build connections between candidates and thus cannot model the inter-dependent relation during retrieval. Moreover, the reasoning process over multi-modality candidates can be unbalanced without building alignments between different modalities. To address this limitation, we propose a Structured Knowledge and Unified Retrieval Generation based method (SKURG). We align the sources from different modalities via the shared entities and map them into a shared semantic space via structured knowledge. Then, we utilize a unified retrieval-generation decoder to integrate intermediate retrieval results for answer generation and adaptively determine the number of retrieval steps. We perform experiments on two multi-modal and multi-hop datasets: WebQA and MultimodalQA. The results demonstrate that SKURG achieves state-of-the-art performance on both retrieval and answer generation.
translated by 谷歌翻译
Image-based head swapping task aims to stitch a source head to another source body flawlessly. This seldom-studied task faces two major challenges: 1) Preserving the head and body from various sources while generating a seamless transition region. 2) No paired head swapping dataset and benchmark so far. In this paper, we propose an image-based head swapping framework (HS-Diffusion) which consists of a semantic-guided latent diffusion model (SG-LDM) and a semantic layout generator. We blend the semantic layouts of source head and source body, and then inpaint the transition region by the semantic layout generator, achieving a coarse-grained head swapping. SG-LDM can further implement fine-grained head swapping with the blended layout as condition by a progressive fusion process, while preserving source head and source body with high-quality reconstruction. To this end, we design a head-cover augmentation strategy for training and a neck alignment trick for geometric realism. Importantly, we construct a new image-based head swapping benchmark and propose two tailor-designed metrics (Mask-FID and Focal-FID). Extensive experiments demonstrate the superiority of our framework. The code will be available: https://github.com/qinghew/HS-Diffusion.
translated by 谷歌翻译
Three-dimensional (3D) freehand ultrasound (US) reconstruction without a tracker can be advantageous over its two-dimensional or tracked counterparts in many clinical applications. In this paper, we propose to estimate 3D spatial transformation between US frames from both past and future 2D images, using feed-forward and recurrent neural networks (RNNs). With the temporally available frames, a further multi-task learning algorithm is proposed to utilise a large number of auxiliary transformation-predicting tasks between them. Using more than 40,000 US frames acquired from 228 scans on 38 forearms of 19 volunteers in a volunteer study, the hold-out test performance is quantified by frame prediction accuracy, volume reconstruction overlap, accumulated tracking error and final drift, based on ground-truth from an optical tracker. The results show the importance of modelling the temporal-spatially correlated input frames as well as output transformations, with further improvement owing to additional past and/or future frames. The best performing model was associated with predicting transformation between moderately-spaced frames, with an interval of less than ten frames at 20 frames per second (fps). Little benefit was observed by adding frames more than one second away from the predicted transformation, with or without LSTM-based RNNs. Interestingly, with the proposed approach, explicit within-sequence loss that encourages consistency in composing transformations or minimises accumulated error may no longer be required. The implementation code and volunteer data will be made publicly available ensuring reproducibility and further research.
translated by 谷歌翻译
自我监督的神经语言模型最近在有机分子和蛋白质序列的生成设计中发现了广泛的应用,以及用于下游结构分类和功能预测的表示学习。但是,大多数现有的分子设计深度学习模型通常都需要一个大数据集并具有黑盒架构,这使得很难解释其设计逻辑。在这里,我们提出了生成分子变压器(GMTRANSFORMER),这是一种用于分子生成设计的概率神经网络模型。我们的模型建立在最初用于文本处理的空白填充语言模型上,该模型在学习具有高质量生成,可解释性和数据效率的“分子语法”方面具有独特的优势。与其他基线相比,我们的模型在摩西数据集上的基准测试后获得了高新颖性和SCAF。概率生成步骤具有修补分子设计的潜力,因为它们有能力推荐如何通过学习的隐式分子化学指导,并通过解释来修饰现有分子。可以在https://github.com/usccolumbia/gmtransformer上自由访问源代码和数据集
translated by 谷歌翻译
在本文中,我们研究了基于骨架的动作识别的问题,该问题在学习从基础阶级到新颖类的可转移表示方面构成了独特的挑战,尤其是针对细粒度的动作。现有的元学习框架通常依赖于空间维度中的身体级表示,这限制了概括以捕获细粒标签空间中细微的视觉差异。为了克服上述局限性,我们提出了一种基于单发骨架的动作识别的部分感知的原型代表。我们的方法捕获了两个独特的空间级别的骨架运动模式,一种用于所有身体关节的全球环境,称为身体水平,另一个则参与了身体部位的局部空间区域,称为零件水平。我们还设计了一种类不足的注意机制,以突出每个动作类别的重要部分。具体而言,我们开发了一个由三个模块组成的零件感知原型图网络:我们的双层建模的级联嵌入模块,一个基于注意力的零件融合模块,用于融合零件并生成零件感知的原型,以及可以执行匹配的模块。与部分意识表示的分类。我们证明了我们方法对两个基于公共骨架的动作识别数据集的有效性:NTU RGB+D 120和NW-UCLA。
translated by 谷歌翻译
由于对个人数据隐私的不断增长和当地客户的迅速增长的数据量,Federated Learnated(FL)的动机已成为新的机器学习设置。 FL系统由中央参数服务器和多个本地客户端组成。它将数据保留在本地客户端,并通过共享本地学到的模型参数来学习集中式模型。不需要共享本地数据,并且可以很好地保护隐私。然而,由于它是模型而不是共享的原始数据,因此系统可以暴露于恶意客户端发起的中毒模型攻击。此外,由于服务器上没有本地客户端数据,因此确定恶意客户端是一项挑战。此外,仍然可以使用上载模型估算客户本地数据,从而导致隐私披露。在这项工作中,我们首先提出了一个基于模型更新的联合平均算法,以防御拜占庭式攻击,例如加性噪声攻击和弹药攻击。提出了单个客户模型初始化方法,以通过隐藏各个本地机器学习模型来提供进一步的隐私保护。在结合这两个方案时,隐私和安全性都可以有效地增强。当没有攻击时,提出的方案被证明在非IID数据分布下实验会收敛。在拜占庭式攻击下,提议的方案的表现要比基于经典模型的FedAvg算法要好得多。
translated by 谷歌翻译
与自然语言解释的视觉结合旨在推断文本图像对之间的关​​系并生成句子以解释决策过程。先前的方法主要依靠预先训练的视觉模型来执行关系推断和语言模型来生成相应的解释。但是,预训练的视觉模型主要在文本和图像之间建立令牌级别的对齐,但忽略了短语(块)和视觉内容之间的高级语义对齐,这对于视觉推理至关重要。此外,仅基于编码的联合表示形式的解释生成器并未明确考虑关键的关系推理的决策点。因此,产生的解释不太忠于视觉语言推理。为了减轻这些问题,我们提出了一种统一的块意见对齐和基于词汇约束的方法,称为CALEC。它包含一个块感知的语义交互器(ARR。CSI),一个关系属性和词汇约束感知的发生器(arr。Lecg)。具体而言,CSI利用语言和各个图像区域固有的句子结构来构建块感知语义对齐。关系下属使用基于注意力的推理网络来合并令牌级别和块级视觉语言表示。 LECG利用词汇约束来将关系下列者重点关注的单词或块纳入解释世代,从而提高了解释的忠诚和信息性。我们在三个数据集上进行了广泛的实验,实验结果表明,CALEC在推理准确性和生成的解释的质量方面显着优于其他竞争者模型。
translated by 谷歌翻译
传感器节点(SNS)的部署总是在无线传感器网络(WSN)的系统性能中起决定性作用。在这项工作中,我们提出了一种实用异构WSN的最佳部署方法,该方法可以深入了解可靠性和部署成本之间的权衡。具体而言,这项工作旨在提供SNS的最佳部署,以最大程度地提高覆盖率和连接学位,同时最大程度地减少整体部署成本。此外,这项工作充分考虑了SNS的异质性(即差异化的传感范围和部署成本)和三维(3-D)部署方案。这是一个多目标优化问题,非凸,多模态和NP-HARD。为了解决它,我们开发了一种新型的基于群体的多目标优化算法,称为竞争性多目标海洋掠食者算法(CMOMPA),其性能通过与十种其他多个多目标优化的全面比较实验验证算法。计算结果表明,在收敛性和准确性方面,CMOMPA优于他人,并且在多模式多目标优化问题上表现出卓越的性能。还进行了足够的模拟来评估基于CMOMPA的最佳SNS部署方法的有效性。结果表明,优化的部署可以平衡部署成本,感知可靠性和网络可靠性之间的权衡平衡。源代码可在https://github.com/inet-wzu/cmompa上找到。
translated by 谷歌翻译
我们展示了一种物理感知的变压器,用于从具有不同分辨率,颜色空间,焦距,焦距和暴露的相机的基于特征的数据融合。我们还展示了使用开源计算机图形软件为变压器合成训练数据生成的可扩展解决方案。我们演示了具有不同光谱响应,瞬时视野和框架速率的阵列上的图像合成。
translated by 谷歌翻译
有了大规模标记的数据集,深度学习在医学图像分割方面已取得了重大成功。但是,由于广泛的专业知识要求和昂贵的标签工作,在临床实践中获取大量注释是具有挑战性的。最近,对比学习表明,在未标记的数据上进行视觉表示学习的能力很强,在许多领域中实现了令人印象深刻的性能与监督的学习。在这项工作中,我们提出了一个新型的多尺度多视图全球对比度学习(MMGL)框架,以彻底探索不同尺度的全球和局部特征,并观察到可靠的对比度学习表现,从而通过有限的注释来改善细分性能。在MM-WHS数据集上进行的广泛实验证明了MMGL框架对半监视的心脏图像分割的有效性,从而超过了最先进的对比度学习方法,这是通过较大的余量。
translated by 谷歌翻译